Apprentissage Par Renforcement : Analyse Des Crit Eres Moyens Et Pond Er Es En Hori- Zon Fini

نویسنده

  • Seydina M. Ndiaye
چکیده

E : Les probl emes de d ecision pos es par l'optimisation stochastique en horizon ni en l'absence de mod ele peuvent ^ etre trait es par des m ethodes adaptatives. Dii erents algorithmes d'apprentissage par renforcement ont et e propos es, tels le Q-Learning ou le R-Learning, mais ils sont d eenis pour des probl emes a horizon innni. On propose ici une mod elisation en horizon ni avec une comparaison de deux algorithmes de type Q-Learning et R-Learning. On montre tout d'abord dans le cas ni l' equivalence des dii erents crit eres d'optimalit e associ es, puis, comme en horizon innni, une etude exp erimentale permet de conclure a la sup eriorit e des m ethodes de type R-Learning. MOTS-CL ES : apprentissage par renforcement, processus d ecisionnel de Markov, horizon ni.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Résumé : La résolution de problèmes à états et actions continus par l’optimisation de politiques paramétriques est un sujet d’intérêt récent en apprentissage par renforcement. L’algorithme PI est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l’estimation statistique. Dans cet article, nou...

متن کامل

Evaluation de la formation des résidents en chirurgie générale et digestive en Tunisie

Introduction: De nombreux moyens sont mis à disposition des résidents en chirurgie générale et digestive pour assurer leur formation théorique et pratique. Cependant, le niveau d'utilisation de ces différents outils et leur impact sur la formation des résidents n'ont jamais été évalués. L'objectif de notre étude était d'étudier l'état des lieux des moyens de formation utilisés par les résidents...

متن کامل

Apprentissage de la structure des processus de décision markoviens factorisés pour l’apprentissage par renforcement

Des algorithmes de planification récents issus de la théorie de la décision sont capables de trouver des politiques optimales ou quasi-optimales sur des problèmes de grande taille en utilisant le formalisme des processus de décision markoviens factorisés (FMDPs). Cependant, ces algorithmes ont besoin d’une connaissance a priori de la structure des problèmes qu’ils résolvent. Dans cette contribu...

متن کامل

Classification structurée pour l'apprentissage par renforcement inverse

Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...

متن کامل

Sur Les Extensions Et Les Utilisations En Informatique D'un R Esultat Math Ematique : Les Polyn^ Omes D'ehrhart Exemple 2 Soit S N Le Syst Eme Lin Eaire Suivant

Les polyn^ omes d'Ehrhart constituent un r esultat math ematique important, permettant d'exprimer le nombre de solutions enti eres d'un syst eme d' equations et d'in equations rationnelles et param etriques. L'informatique trouve ici un outil permettant une analyse symbolique exacte des programmes. Nous montrons dans cet article que le math ematicien Eug ene Ehrhart a pos e les bases d'un vaste...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2009